Categorías
Inteligencia Artificial

Guía Completa sobre el archivo LLM.txt

El avance de la Inteligencia Artificial generativa (IA) ha impulsado el consumo masivo de contenidos web para el entrenamiento de modelos como ChatGPT, Gemini, Claude, LLaMA, Perplexity y otros. Sin embargo, los propietarios de sitios web no siempre desean que su contenido se utilice libremente con ese propósito.

¿Qué es el archivo LLM.txt?

El llm.txt es un archivo de texto plano situado en la raíz del dominio, destinado a comunicar a los modelos de IA alguna de las siguientes indicaciones:

  • Qué contenido pueden utilizar
  • Qué contenido no pueden usar
  • Para qué fines (referencia, entrenamiento, indexación semántica, etc.)
  • No sustituye al robots.txt, sino que lo complementa.

Es un archivo muy parecido al robots.txt, pero que en vez de permitir acceder o no a la web, indica lo que queremos que la herramienta IA haga con nuestro contenido.

¿Qué problema resuelve el LLM.txt?

Antes del llm.txt, los modelos de IA podían entrar a nuestro contenido y:

  • Copiar contenido de páginas web públicas.
  • Incorporarlo a sus datasets de entrenamiento.
  • Utilizarlo para generar respuestas sin atribución ni referencia.

El archivo llm.txt permite dejar constancia pública y verificable de los permisos y restricciones del titular del sitio web.

¿Por qué es importante usar el archivo LLM.txt?

Utilizar los archivos LLM.txt permiten lo siguiente

MotivoImpacto
Protección de derechos de autorEvita que contenido propietario se use para entrenar IA
Control sobre el uso del contenidoDefine qué partes del sitio pueden ser utilizadas
Cumplimiento ético y transparenciaLas empresas indican su postura ante el uso de IA
Mitigar extracción indebidaReduce la probabilidad de copia sistemática

Aunque no hay un consenso sobre la utilidad de este archivo.

¿Quién fomenta el uso de los archivos LLM.txt?

El formato ha sido impulsado por:

  • Desarrolladores de IA generativa
  • Editoriales y medios que defienden autoría (NYT, BBC, Vox Media…)
  • Empresas tecnológicas (OpenAI, Anthropic, Google, Meta…)
  • Comunidades de SEO / Webmasters
  • Organizaciones de gestión de derechos

Su adopción está en expansión intentando convertirse en un estándar de la gestión del contenido.

Ventajas y Desventajas de usar archivos LLM.txt

VentajasDesventajas
Proporciona control explícito de uso del contenidoNo es legal ni vinculante para todos los modelos IA
Facilita políticas claras para IAAlgunos actores pueden ignorarlo
Mejora transparencia y reputación digitalRequiere decisión estratégica previa
Permite enfoques flexibles según seccionesRequiere mantenimiento si cambia la web

¿Cómo debe estar estructurado un archivo LLM.txt?

Al igual que los Robots.txt, los archivos LLM.txt tienen un formato definido y unas instrucciones que se definen a través de varios elementos claves, veamos dichos factores:

Formato que debe tener un archivo LLM.txt:

En cuanto al formato de los archivos LLM.txt podemos mencionar lo siguiente:

  • Archivo de texto plano (.txt)
  • Codificación UTF-8
  • Debe situarse en la raíz del dominio

Ejemplo:

https://tudominio.com/llm.txt

Elementos clave en un archivo LLM.txt:

Entre los elementos a cuidar en un archivo LLM.txt, podemos mencionar los siguientes:

  • User-Agent: modelos a los que aplica
  • Allow: secciones permitidas
  • Disallow: secciones prohibidas
  • Policy: declaración explícita de uso del contenido

Contenido recomendado según el tipo de página

Si no tienes claro si tu contenido debes bloquearlo o no para los modelos de IA, ya sea para el entrenamiento o para su indexación, aquí te dejamos unas indicaciones claras sobre qué hacer en cada caso:

Secciones que habitualmente se permiten en un LLM.txt

Tipo de contenidoMotivoEstado recomendado
Blog educativoPromueve visibilidad y reputaciónAllow / Permitir indexación y referencia
Información institucionalDivulgación públicaAllow / Sin restricción
Páginas de destino públicasDifusión comercialAllow, pero sin entrenamiento

Ejemplo:

Allow: /blog/

Allow: /nosotros/

Policy: Content may be referenced, but NOT used for training.

Secciones que habitualmente se deben restringir en un LLM.txt:

Tipo de contenidoRiesgoEstado recomendado
Ecommerce (carrito, checkout)Datos sensiblesDisallow
Área privada / cuentaInformación personalDisallow
PDF descargablesPropiedad intelectual directaDisallow
Documentación interna / manualesDerechos de autorDisallow

Ejemplo:

Disallow: /carrito/

Disallow: /checkout/

Disallow: /mi-cuenta/

Disallow: /manuales/

Disallow: /pdfs/

Policy: No training, no semantic indexing, no reproduction.

Comandos comunes en el archivo LLM.txt

A día de hoy, no existe un estándar oficial único (como sí ocurre con robots.txt). Sin embargo, se está consolidando un conjunto de directivas comunes que los principales modelos de IA ya reconocen.

Estas son las instrucciones (comandos) que pueden usarse en llm.txt:

ComandoQué haceEjemplo
User-AgentIndica a qué modelo o servicio de IA se dirigen las reglasUser-Agent: *
AllowPermite el acceso o uso del contenido indicadoAllow: /blog/
DisallowProhíbe el acceso o el uso del contenido indicadoDisallow: /privado/
PolicyDefine el tipo de uso permitido (referencia, entrenamiento, etc.)Policy: Content may be referenced but NOT used for training.
LLM (opcional en robots.txt)Señala la ubicación del archivo llm.txt desde robots.txtLLM: https://tudominio.com/llm.txt

Comandos reconocidos opcionales:

ComandoFunciónNota
DatasetIndica explícitamente si el contenido puede entrar en datasets de IASoporte variable, adoptado por OpenAI y Perplexity
No-ArchiveEvita la copia persistente del contenidoÚtil en medios y contenidos con derechos
License / TermsEnlaza a condiciones legales de uso del contenidoNo es obligatorio, pero recomendable

Ejemplo:

Dataset: disallow

No-Archive: true

License: https://tudominio.com/aviso-legal

Ejemplos de cómo va el LLM.txt

Si no sabes como debe estructurarse el archivo LLM.txt, aqui te dejamos algunos ejemplos sobre como deben redactarse dichos archivos:

Archivo LLM.txt si quieres permitir solo lectura y referencia (NO entrenamiento)

User-Agent: *

Allow: /

Policy: Content may be referenced to answer user queries, but may NOT be used for training or dataset creation.

Dataset: disallow

No-Archive: true

Archivo LLM.txt si quieres permitir el entrenamiento

User-Agent: *

Allow: /

Policy: Content may be used for research, indexing, and model training.

Dataset: allow

Archivo LLM.txt si quieres el Bloqueo total de tu contenido

User-Agent: *

Disallow: /

Policy: No training, no indexing, no extraction, no reproduction.

Dataset: disallow

No-Archive: true

Como especificar reglas para cada modelo de IA.

Así como en el robots.txt podemos dar indicaciones a cada bot, en el archivo LLM.txt podemos dar instrucciones a diferentes modelos de IA. A manera de ejemplo, podríamos tener:

User-Agent: OpenAI

Policy: Content may be referenced but NOT used for training.

User-Agent: Google-Extended

Disallow: /

Policy: No training.

User-Agent: Perplexity

Allow: /blog/

Disallow: /ebooks/

Ejemplos completos de configuración de un archivo LLM.txt

Si buscas ejemplos de como debe ir el archivo LLM.txt, aquí te dejo algunos casos:

LLM.txt que permite la referencia, pero no el entrenamiento:

User-Agent: *

Allow: /

Policy: Content may be referenced to answer user questions, but may NOT be used for training or fine-tuning.

LLM.txt que bloquea totalmente el contenido

User-Agent: *

Disallow: /

Policy: No training. No crawling. No content usage.

LLM.txt que permite todo (casos educativos / open source)

User-Agent: *

Allow: /

Policy: Content may be used for research, indexing, and training.

Como decidir si necesitas preparar un archivo LLM.txt

Preguntas frecuentes sobre el archivo LLM.txt

¿El archivo LLM afecta al SEO?

No. Google no usa llm.txt para el ranking.

¿Es obligatorio el archivo LLM?

No, pero se está convirtiendo en norma de control de contenido.

¿Tener el archivo LLM.txt garantiza que las herramientas de IA cumplan con dichas indicaciones?

Las grandes empresas de IA (por ejemplo, OpenAI, Google, Meta, Anthropic, Perplexity) están comprometidas públicamente a respetar lo que un sitio web declare en llm.txt (igual que respetan robots.txt). Es decir, si en llm.txt indicas que NO quieres que tu contenido se use para entrenar IA, estas empresas lo respetarán y no incluirán tu contenido en sus datasets.

Sin embargo, no todos los actores del ecosistema IA son igual de responsables, ya que, existen:

– Modelos open-source entrenados por particulares
– Bots o scrapers no identificados
– Startups que no tienen políticas claras de uso de contenido

Estos actores podrían ignorar las reglas de llm.txt y seguir usando el contenido si lo encuentran accesible públicamente.

¿Debo actualizar el archivo LLM?

Sí, si cambias la estructura o la política de contenido debes cambiarlo.

El archivo llm.txt es la herramienta más efectiva actualmente para establecer una política clara sobre el uso de contenido de la web por parte de modelos de IA generativa.

No es perfecto, pero proporciona control, transparencia y protección, y su adopción es una práctica recomendada.

Si te gustó, guarda, comenta y comparte que quizás a alguien necesite de esta información.

Por: Alexis Petit

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *